基于图形的模型最近在人的重新识别任务中取得了巨大的成功,该任务首先计算了不同人之间的图形拓扑结构(亲和力),然后将信息传递给他们的信息以实现更强的功能。但是,我们在可见的红外人员重新识别任务(VI-REID)中发现了现有的基于图的方法,因为有两个问题:1)火车测试模式平衡差距,这是VI-REID任务的属性。两个模式数据的数量在训练阶段平衡,但推理极为不平衡,导致基于图的VI-REID方法的概括较低。 2)由图形模块的端到端学习方式引起的亚最佳拓扑结构。我们分析训练有素的输入特征会削弱图形拓扑的学习,从而使其在推理过程中不够概括。在本文中,我们提出了一种反事实干预特征转移(CIFT)方法来解决这些问题。具体而言,均匀和异质的特征转移(H2FT)旨在通过两种独立的设计的图形模块和不平衡的场景模拟来减少火车测试模态差距。此外,提出了反事实关系干预(CRI)来利用反事实干预和因果效应工具来突出拓扑结构在整个训练过程中的作用,这使图形拓扑结构更加可靠。对标准VI-REID基准测试的广泛实验表明,CIFT在各种设置下都优于最新方法。
translated by 谷歌翻译
基于回归的方法可以通过直接以馈送方式将原始像素直接映射到模型参数来估算从单眼图像的身体,手甚至全身模型。但是,参数的微小偏差可能导致估计的网格和输入图像之间的明显未对准,尤其是在全身网格恢复的背景下。为了解决这个问题,我们建议在我们的回归网络中进行锥体网状对准反馈(PYMAF)循环,以进行良好的人类网格恢复,并将其扩展到PYMAF-X,以恢复表达全身模型。 PYMAF的核心思想是利用特征金字塔并根据网格图像对准状态明确纠正预测参数。具体而言,给定当前预测的参数,将相应地从更优质的特征中提取网格对准的证据,并将其送回以进行参数回流。为了增强一致性的看法,采用辅助密集的监督来提供网格图像对应指南,同时引入了空间对齐的注意,以使我们的网络对全球环境的认识。当扩展PYMAF以进行全身网状恢复时,PYMAF-X中提出了一种自适应整合策略来调整肘部扭转旋转,该旋转会产生自然腕部姿势,同时保持部分特定估计的良好性能。我们的方法的功效在几个基准数据集上得到了验证,以实现身体和全身网状恢复,在该数据集中,PYMAF和PYMAF-X有效地改善了网格图像的对准并实现了新的最新结果。具有代码和视频结果的项目页面可以在https://www.liuyebin.com/pymaf-x上找到。
translated by 谷歌翻译
对话摘要已被广泛研究和应用,其中,先前的作品主要集中在探索卓越的模型结构方面,以对准输入对话和输出摘要。然而,对于专业对话(例如,法律辩论和医学诊断),语义/统计对齐可能几乎不会填补输入对话话语话语和外部知识的摘要输出之间的逻辑/事实差距。在本文中,我们主要研究了非预介绍和预用环境下对话检验摘要(DIS)的事实不一致问题。创新的端到端对话摘要生成框架是有两个辅助任务:预期事实方面正规化(EFAR)和缺少事实实体歧视(MFED)。综合实验表明,该模型可以以准确的事实方面的覆盖率来产生更可读的总结,以及通知用户从输入对话中检测到的潜在缺失事实以获得进一步的人为干预。
translated by 谷歌翻译
Recent years have witnessed the rapid growth of Small Private Online Courses (SPOC) which is able to highly customized and personalized to adapt variable educational requests, in which machine learning techniques are explored to summarize and predict the learner's performance, mostly focus on the final grade. However, the problem is that the final grade of learners on SPOC is generally seriously imbalance which handicaps the training of prediction model. To solve this problem, a sampling batch normalization embedded deep neural network (SBNEDNN) method is developed in this paper. First, a combined indicator is defined to measure the distribution of the data, then a rule is established to guide the sampling process. Second, the batch normalization (BN) modified layers are embedded into full connected neural network to solve the data imbalanced problem. Experimental results with other three deep learning methods demonstrates the superiority of the proposed method.
translated by 谷歌翻译
A computational graph in a deep neural network (DNN) denotes a specific data flow diagram (DFD) composed of many tensors and operators. Existing toolkits for visualizing computational graphs are not applicable when the structure is highly complicated and large-scale (e.g., BERT [1]). To address this problem, we propose leveraging a suite of visual simplification techniques, including a cycle-removing method, a module-based edge-pruning algorithm, and an isomorphic subgraph stacking strategy. We design and implement an interactive visualization system that is suitable for computational graphs with up to 10 thousand elements. Experimental results and usage scenarios demonstrate that our tool reduces 60% elements on average and hence enhances the performance for recognizing and diagnosing DNN models. Our contributions are integrated into an open-source DNN visualization toolkit, namely, MindInsight [2].
translated by 谷歌翻译
Existing state-of-the-art method for audio-visual conditioned video prediction uses the latent codes of the audio-visual frames from a multimodal stochastic network and a frame encoder to predict the next visual frame. However, a direct inference of per-pixel intensity for the next visual frame from the latent codes is extremely challenging because of the high-dimensional image space. To this end, we propose to decouple the audio-visual conditioned video prediction into motion and appearance modeling. The first part is the multimodal motion estimation module that learns motion information as optical flow from the given audio-visual clip. The second part is the context-aware refinement module that uses the predicted optical flow to warp the current visual frame into the next visual frame and refines it base on the given audio-visual context. Experimental results show that our method achieves competitive results on existing benchmarks.
translated by 谷歌翻译
在这项工作中,我们提出了一种自适应的稀疏学习算法,可以应用于学习物理过程并获得较大的快照空间的溶液的稀疏表示。假设有一类丰富的预定基础函数可以用来近似关注数量。然后,我们设计了一个神经网络体系结构,以学习由这些基础功能跨越的空间中的解决方案系数。基本函数的信息已纳入损耗函数,这最大程度地减少了在多个时间步长下缩小的减少订单解决方案和参考解决方案之间的差异。该网络包含多个子模块,并且可以同时学习不同时间步骤的解决方案。我们在学习框架中提出了一些策略,以确定重要的自由度。为了找到稀疏的溶液表示形式,应用软阈值操作员来强制神经网络的输出系数向量的稀疏性。为了避免过度简化并丰富近似空间,可以通过贪婪的算法将一些自由度添加回系统。在这两种情况下,即删除和添加自由度,相应的网络连接都是由从网络输出获得的解决方案系数的大小来修剪或重新激导的。提出的自适应学习过程适用于某些玩具案例示例,以证明它可以实现良好的基础选择和准确的近似。对两阶段多尺度流问题进行了更多的数值测试,以显示复杂应用程序所提出的方法的能力和解释性。
translated by 谷歌翻译
旨在用自然语言和谐地与人类交流的智能对话体系对于促进人工智能时代的人机互动的发展非常出色。有了逐渐复杂的人类计算机交互要求(例如,多模式输入,时间敏感性),传统的基于文本的对话系统很难满足对更加生动和方便的交互的需求。因此,视觉背景增强对话系统(VAD)有可能通过感知和理解多模式信息(即图像或视频中的视觉上下文,文本对话历史记录)与人类进行交流,已成为主要的研究范式。 VAD受益于视觉和文本上下文之间的一致性和互补性,具有产生引人入胜和背景感知响应的潜力。为了描述VAD的开发,我们首先表征VAD的概念和独特功能,然后介绍其通用系统体系结构以说明系统工作流程。随后,对一些研究挑战和代表性作品进行了详细研究,然后进行了权威基准摘要。我们通过提出一些开放问题和有前途的VAD研究趋势来结束本文,例如,在跨模式对话环境下,人机对话的认知机制以及知识增强的跨模式语义互动。
translated by 谷歌翻译
开发对手挑战NLP系统的方法是提高模型性能和解释性的有前途的途径。在这里,我们描述了团队在第一个动态对抗数据收集(DADC)的任务1中“长角牛”的方法,该研讨会要求团队手动欺骗一个模型,以挖掘出挖掘的问题回答任务。我们的团队首先结束,模型错误率为62%。我们主张采用系统的,语言知情的方法来制定对抗性问题,并描述了试点实验的结果以及我们的官方提交。
translated by 谷歌翻译
随着技术的发展,卷积神经网络的应用改善了我们生活的便利。但是,在图像分类字段中,已经发现,当将某些扰动添加到图像中时,CNN会将其错误分类。因此,已经提出了各种防御方法。先前的方法仅考虑了如何将模块合并到网络中以提高鲁棒性,但并未关注模块合并的方式。在本文中,我们设计了一种新的融合方法来增强CNN的鲁棒性。我们使用基于DOT产品的方法将Denoising模块添加到RESNET18和注意机制中,以进一步提高模型的鲁棒性。CIFAR10上的实验结果表明,我们的方法比FGSM和PGD攻击下的最新方法更好,并且更好。
translated by 谷歌翻译